Retrieval Augmentation

End-to-End Training of Multi-Document Reader and Retriever for Open-Domain Question Answering

マルチドキュメントOpenQAモデルをReaderとRetrieverを用いて、End-to-Endで学習するための新しい学習アルゴリズム

AtlasとかORQAのあれや

Masked Language Modelingなどを行う際、コーパスの中から該当箇所を抽出するRetrieverを同時に学習

抽出した参照文章と入力文を組み合わせてMLMを行う

解釈性もいいしパラメータ効率も良い

どうやって学習させるかが難しい

最近

PCL-Baidu WenxinはGPT-3スタイルのモデルとナレッジモデルを組みあわす

DeepMindのRETROはわずか70億個のパラメータを持つ言語mドエルでRetrieverと組み合わして、25倍のサイズの他のモデルと同等のパフォーマンス

OpenAIのWebGPTは参照コーパスを動的にインターネットから検索して抽出

効率的にベクトルの近傍探索ができることは検索やRetrievalにおいて必要不可欠

NeurlPS2021でコンペがあった

Billion-Scale Approximate Nearest neighbor Search Challenge

10億の参照データ

SPANN: Highly-efficient Billion-sclae Approximate Nearest neighborhood Search

大規模言語モデルにRetriever

ChatGPT APIで社内データについて回答するSlack BotとWebアプリを作った

LLM活用促進に向けたPlatform Engineeringからのアプローチ

【GPTIndex】パワポを読み込んだChatbotを作ろう！

外部データをRetrievalしてLLM活用する上での課題と対策案